Image du projet Avatar le maître du R

IF36 - Visualiser des données

Image du meilleur groupe de projet R

Avatar, le maître du R

Date de sortie : 2025-04-28

Pour la réalisation du projet, nous avons décidé de nous baser sur divers datasets autour de la plateforme Steam et de sa grande bibliothèque de jeux. L'objectif est d'analyser le marché du jeu vidéo, ses tendances, ses hauts et ses bas.

Voir le Github Free to play

Notre équipe

Datasets initiaux

Compte rendu

Introduction

Steam

Steam est une plateforme de distribution de jeux vidéo développée par Valve.

Elle permet aux utilisateurs d’acheter, télécharger et jouer à une grande variété de jeux sur PC, Mac et Linux. En plus de proposer un vaste catalogue de jeux (environ 140 000 jeux), Steam offre des évaluations et avis de joueurs sur les jeux de son catalogue.


Données

Dans le cadre de notre projet, nous avons choisi d’étudier divers jeux de données autour du catalogue de jeux Steam. Les datasets utilisés lors de ce projet sont les suivants :

Les datasets sont sous format de différents fichiers csv. Cependant, NewbieIndieGameDev utilisant probablement un logiciel tiers pour manipuler ses données, certains csv sont mal formatés et imparsables par un programme (données json dans une colonne, balises html, …).
Nous devons donc les modifier au préalable. Nous avons déjà “reformaté” le fichier games.csv afin de le rendre lisible par nos programmes et vérifier que nous sommes bien capables de les traiter pour notre projet.
Ainsi dans le dossier data : pour chaque fichier qui possède ce problème, il y aura un fichier raw_<nom_du_fichier>.csv qui sont les données brutes (“illisibles”) et clean_<nom_du_fichier>.csv qui sont les données reformatées pour qu’elles soient “lisibles”.

Ces datasets possèdent de nombreuses variables. Nous allons nous concentrer sur ceux qui nous semblent assez pertinentes à analyser. Description des fichiers et de leur contenu :

  • games.csv : regroupe les métadonnées des jeux, notamment :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • name (nominales) : titre du jeu
    • price (continues) : prix d’achat
    • languages (nominales) : les langues disponibles sur le jeu
  • steamspy.csv : fournit des données issues de SteamSpy, incluant :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • developer (nominales) : studio de développement
    • publisher (nominales): éditeur du jeu
    • owners_range(discretes/continues) : plage estimée du nombre de propriétaires du jeu
    • playtime_median (discrètes) : durée médiane de jeu par utilisateur
    • concurrent_users_yesterday (discrètes) : nombre total de joueurs connectés (octobre 2024)
    • genres (nominales) : catégorie du jeu
  • tags.csv : répertorie les tags attribués à chaque jeu (différents des genres).
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • tag (nominales) : tag associé au jeu
  • reviews.csv : contient des informations sur les avis des joueurs :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • review_score_description (oridnales) : évaluation globale (Overwhelmingly Positive, Very Positive, Mixed, etc.)
    • positive / negative (nominales) : nombre d’avis positifs et négatifs
    • metacritic_score (discrètes) : note Metacritic
    • recommendations (discrètes) : nombre de recommandations sur Steam
  • categories.csv : liste les catégories officielles Steam associées aux jeux.
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • category (nominales) : catégorie associée au jeu

Plan d’analyse

Nous tenons à éviter de reproduire les mêmes analyses et visualisations que NewbieIndieGameDev disponible sur ce lien : Vidéo sur l’analyse des données par NewbieIndieGameDev

Avec ces nombreuses données et variables, de nombreuses pistes d’analyse sont possibles :

Notes et avis des joueurs

  • Une corrélation est-elle identifiable entre les avis/note (Métacritics ou joueurs) et le temps de jeu ?
  • Les avis Metacritic sont-elles corrélées avec les avis données par les joueurs sur la plateforme ?
  • Voir l’évolution des évaluations des joueurs des jeux AAA

Genres des jeux

  • Quels sont les catégories les plus populaires sur Steam actuellement ?
  • Quel est la tendance des jeux sortis récemment ? (genre, jeux indépendants ou AAA, etc…)
  • Observer l’évolution des genres de jeu sortis pour déceler des “modes” et période où certains genre de jeux était les plus populaires ?
  • À partir des résultats de l’observation précédente, essayer de comprendre une montée ou baisse des genres.
    • Exemple (simple) : est-ce que la croissance du genre battle royale peut-être corrélée/causée avec la sortie du jeu Fortnite
    • Exemple (complexe) : Peut-on observer une corrélation entre la sortie de jeux en ligne et le déploiement d’internet dans le monde (nécessite de trouver des données sur le déploiement d’internet)

Jeux indépendants vs AAA

  • Les jeux indépendants obtiennent-ils des meilleures évaluations que les AAA ?
  • Quelle est la durée de vie d’un jeu indépendant comparée à un AAA? (on essayera de prendre des jeux avec des genres assez similaires)
  • Les genres/tags des jeux indépendants sont-ils plus “innovants” que les AAA ?

Prix

  • Quels sont les facteurs qui impactent globalement le prix ? (les genres/tags de jeux les plus chers, plus de langues disponibles <=> prix plus chers ?)
  • Comparer des jeux avec des avis/notes similaires mais des prix différents pour voir si le temps de jeu moyen est impacté (est-ce que le prix peut influer le joueur à plus jouer pour le “rentabiliser”)
  • Comparer les moyennes des prix des jeux par développeurs / studio de développement, pour potentiellement identifier des stratégies économiques chez certains.

Jeux en ligne

  • Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)
  • Déceler certains jeux avec un fort nombre de joueurs connectés et essayer de l’associer à un évènement à ce moment (octobre 2024) qui explique ce nombre élevé : mise à jour conséquente, évènement d’influenceur relançant l’intérêt pour le jeu, etc…

Différences culturelles/géographique et leurs impacts

  • Etudier les langues disponibles selon les jeux des développeurs afin de potentiellement déceler des marchés/régions priorisés.

Variables à comparer/Visualisations à réaliser

Voici une liste non exhaustive des variables comparées ainsi que les visualisations que l’on va réaliser :

  • Nombre de jeux par genre/catégorie, avec possibilité de filtrer par date de sortie pour analyser les tendances récentes.
  • Comparaison entre les scores Metacritic et les avis des utilisateurs sur Steam.
  • Corrélation entre le nombre de langues disponibles et le nombre de propriétaires d’un jeu.
  • Comparaison entre les jeux issus d’un studio indépendant et ceux d’un grand studio, en comparant l’évolution des ventes réalisées, le prix des jeux et les avis des joueurs (ex : les jeux du studio Supergiant Games vs Ubisoft).
  • Analyse des combinaisons de genres les plus fréquentes pour les jeux indépendants et les jeux AAA, afin de mettre en évidence des différences de positionnement. - Évolution des prix de lancement des jeux au fil du temps.

Problèmes et limitations

  • Le dataset que l’on a choisi est un “snapshot” du SteamLibrary datant d’octobre 2024. On ne pourra pas réaliser de comparaisons dans le temps à part dans certains rares cas où les variables nous le permettent (prix initial d’un jeu, etc…)
  • Pour certaines données notamment provenant de SteamSpy, ce sont des estimations donc les analyses sur ces données perdront une certaine précision

Analyse descriptive

Dans cette partie, nous allons chercher à analyser les différentes variables de notre dataset importé afin d’appréhender les données que nous avons choisis. Nous chercherons à calculer les moyennes et les écarts-types des variables numériques (pour le prix, le nombre d’avis, etc…). Nous étudierons également la répartition de différentes valeurs au sein du dataset (tags, owner_range, etc..). Enfin, nous construirons également une matrice de corrélation afin d’examiner les possibles relations entre les variables du dataset.

Moyennes et Écarts-types

Notes :

  • La moyenne des notes Metacritics ne concerne que les jeux ayant reçu cette note
  • La moyenne des prix ne concerne uniquement les jeux payants

Répartition de différentes variables

Répartition de la plage de propriétaires des jeux Steam

Note :

  • Ces données proviennent de SteamSpy. Un autre outil existe pour estimer le nombre de copies vendues au total (Gamalytic), mais ce service est payant

Répartition des jeux Steam sortis par année

Observations :

  • On observe l’absence de jeux sortis en 2002.
  • On observe également une augmentation nette à partir de 2006. Une explication plausible est que la plateforme Steam est sortie en 2003 et était dédiée à la distribution des mises à jour des jeux Valve. Ce n’est qu’à la fin de l’année 2005 que Steam a décidé de distribuer des jeux tiers sur son marché.
  • On observe une augmentation brusque en 2013-2014. Ceci est le résultat du programme Steam Greenlight, un service qui permettait aux développeurs de soumettre leur jeu pour que la communauté Steam puisse voter pour ceux qui vont intégrer le catalogue de la plateforme. Lancé en 2012, ce service va permettre à plus en plus de jeux de pouvoir intégrer le catalogue Steam.
  • Il faut prendre en compte également que ce graphique utilise une échelle pseudo-logarithmique, lorsque l’on parlons d’augmentation nette, elle ne l’est pas réellement en terme de chiffre. On vous affiche le graphique réel sans échelle logarithmique :

Sources des explications :

Répartition des genres des jeux Steam

Observations :

  • Le genre le plus populaire dans le catalogue Steam est le genre Indie
  • On peut observer ensuite un nombre similaire pour les genres Action Casual et Adventure (~ 36k jeux) et pour les genres Simulation, Strategy et RPG (~ 17k jeux)

Note :

  • Nous avons retiré les genres qui ne comptaient moins de 1000 jeux pour se concentrer sur les genres principaux des jeux Steam. La plupart des autres genres retirés étaient des genres de niche (Cinéma ou d’autres genres concernant les logiciels disponibles sur Steam).

Matrice de corrélation

Observations :

  • Le nombre d’avis positif semble être corrélé avec le nombre de recommendation (0.93)
  • La note Metacritic n’est pas forcément corrélé avec la proportion de notes positives (0.53)
  • Certaines valeurs obtenues doivent être discutées comme la corrélation entre le nombre de recommendation et le nombre d’avis positive/négative. En effet, comme il s’agit d’une valeur comptée, cela peut biaiser l’interprétation de la corrélation. En prenant en compte la proportion, nous obtenons une valeur quasi-nulle.

Notes :

  • Il n’existe pas de corrélation négative dans nos données
  • Nous avons omis la proportion d’avis négative dans le tableau car nous obtenons juste le résultat inverse que pour la corrélation pour les avis positive.

Analyse du dataset

Partie Analyse Prix (Florian LOPITAUX)

Dans cette section, nous allons nous intéresser aux facteurs qui peuvent avoir une influence sur le prix des jeux. Nous avons à partir des données de notre jeu de données relevé différents aspects qui seraient intéressants d’analyser afin de mieux comprendre comment est défini le prix d’un jeu.

Chaque aspect sera approfondi dans sa partie : contexte (pourquoi on se pose la question), traitement des données, analyse (graphique) et conclusion.

Voici les aspects que nous analyserons :

  • le nombre de langues disponibles sur un jeu : est-ce que le coût de traduction impacte le prix du jeu ?

  • les genres/tags des jeux : est-ce qu’on peut observer une différence en moyenne significative entre certains genres/tag de jeu ? Par exemple : Un jeu RPG open-world en 3D serait plus complexe et cher à déveloper qu’un plateformer 2D et donc plus cher ?

  • l’évolution des prix au fil du temps ? Est-ce qu’on peut observer une hausse des prix des jeux en fonction de leur date de sortie ?

  • Y a t-il des différences de prix notables entre les studios de développement ? Ce dernier aspect sera à mettre en relation avec l’aspect étudié précédent sur les genres/tags de jeu que développent les studios.

Préambule : Comme nous sommes actuellement pour le premier rendu, seul le premier aspect (les langues) de cette section sur les prix sera traité dans ce rendu. D’autres parts, de nouveaux aspects pourraient être ajoutés d’ici le rendu final si nous en trouvons durant notre analyse.

Filtrage des données

Avant de passer à l’analyse, nous devons d’abord filtrer nos données, notamment celles où nous n’avons pas d’informations sur le prix. Ce manque d’information s’explique soit car le jeu est gratuit (free-to-play <=> F2P), soit par une erreur dans les données.

Nous décidons de ne pas prendre en compte les jeux gratuits dans nos analyses du prix et de les analyser distinctement dans une autre section.

De plus, notre jeu de données contient une colonne “currency” contenant la devise de la monnaie utilisée pour exprimé le prix du jeu. Voici un bar plot montrant le pourcentage de représentation de chaque devise présente dans le dataframe.

On observe que l’écrasante majorité des prix sont formulés sous la devise de l’EURO. La solution optimale serait de convertir les prix avec une autre devise en EURO afin de pouvoir les comparer. Toutefois, dû à la complexité de la tâche et au manque de temps nous décidons de simplifier et d’utiliser uniquement les jeux exprimés en EURO.

Enfin, nous devons également enlever les lignes qui ne contiennent pas d’informations sur les langues disponibles des jeux.

On observe que cette étape supprime peu de lignes, on en déduit donc que les lignes où il y avait une erreur dans les prix sont probablement en majorité les mêmes lignes où il y a eu une erreur avec les langues et qu’il n’y a pas d’information.

L’impact des langues disponibles

Maintenant que le filtrage de données nécessaires pour cette partie est terminé, nous pouvons commencer notre analyse !

Notre objectif est de trouver une potentielle corrélation entre le prix des jeux et le nombre de langues disponibles. En effet, hormis la langue originale du jeu (celle du studio qui l’a développé), chaque langue disponible en plus nécessite un coût supplémentaire pour le studio de développement qui doit engager une équipe de traduction. De plus, cette traduction demande parfois des adaptations visuelles d’éléments graphiques directement dans le jeu, par exemple : si les langues sont extrêmement différentes (langues asiatiques fonctionnant sur un système d’idéogrammes et langues occidentales se basant sur l’alphabet latin).

De ce fait, il nous paraît possible que ce coût puisse avoir une répercussion sur le prix du jeu et donc qu’on puisse observer une corrélation entre ces deux éléments avec nos données.

Pour ce faire, nous allons d’abord devoir calculer le nombre de langues par jeu, rajoutons une nouvelle colonne ‘nb_languages’ qui contiendra ce nombre :

Et voilà maintenant que ceci est fait nous pouvons maintenant créer notre graphique afin de voir, si oui ou non, une corrélation est observable. Pour ce graphique, nous décidons de partir sur un “scalar plot” avec comme axe horizontal le prix des jeux et comme axe vertical le nombre de langues disponibles :

Comme vous pouvez le constater le graphique est très peu lisible à cause de ses échelles, cela est dû aux points dits “outlier” : des points extrêmes en prix ou nombre de langues relevant “d’anomalie” et ne représentant pas la masse des données.

Nous décidons donc de les enlever pour réduire l’échelle et mieux pouvoir analyser le graphique.

Comme nous pouvons l’observer, de nombreux jeux possédant le même nombre de langues se vendent à des prix très différents et inversement de nombreux jeux aux mêmes prix possèdent un nombre de langues très différents. De plus, nous n’observons pas d’augmentation de prix de façon linéaire par rapport au nombre de langues disponibles.

Il ne semble donc pas y avoir de corrélation entre le nombre de langues disponibles et le prix d’un jeu.

Notre hypothèse concernant les moyens et coûts de traduction qui pourraient impacter le prix est donc fausse. Cela nous parraît cohérent étant donné qu’aujourd’hui le support multi-language est devenu une norme pour une grande partie des jeux. Les studios aujourd’hui visent un marché international et donc doivent rendre leurs jeux accessibles pour ces marchés.

————————————————————————

Types de jeux en ligne sur Steam (Hoang-Viêt LE)

Différences entre Catégorie et Tag

Sur Steam, il existe deux types de variables qui permettent de classer les jeux présents sur la plateforme :

  • Catégories : classifications officielles attribuées par Steam. Elles décrivent les fonctionnalités principales du jeu. Exemples : Multijoueur, Succès Steam, Support manette, Mode coopératif.

  • Tags : classifications collaboratives créées par les utilisateurs. Ils décrivent le contenu, l’ambiance ou le style du jeu. Exemples : Puzzle, Narratif, Indépendant, FPS, Monde ouvert.

Tags et Catégories de Portal 2 sur Steam
Tags et Catégories de Portal 2 sur Steam

Contexte et problématique

Steam est un acteur majeur dans le développement du jeu en ligne avec des titres cultes comme Counter-Strike ou Team Fortress. Au fil des années, d’autres genres comme les MMORPG, Battle Royale ou les jeux en coopération ont gagné en popularité. Nous voulons voir les tendances actuelles et quels types de jeux attirent principalement les joueurs de Steam.

Notre problématique est alors la suivante :

Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)

Définition de jeu en ligne

Pour commencer notre analyse, il faut tout d’abord définir le terme de jeu en ligne.

Une définition de jeu en ligne sera un jeu vidéo dont l’expérience se repose sur l’intéraction entre plusieurs joueurs en temps réel.

Typologies principales :

  • MMO (Massively Multiplayer Online)
  • Jeux compétitifs (FPS, MOBA, Battle Royale)
  • Jeux collaboratifs (ex : Euro Truck Simulator 2)

Critères d’identification “jeu en ligne” :

Pour qu’un jeu soit considéré comme en ligne :

Il doit contenir au moins un des éléments suivants dans ses catégories ou tags :

  • Multiplayer, Massively Multiplayer, Online Co-op, etc.

Pour mesurer la popularité : On utilise le nombre de joueurs actifs en octobre 2024 (concurrent_users_yesterday dans les données).

Types de jeux en ligne

Pour analyser les type de jeux les plus populaires pour les jeux en ligne et regarder sa distribution dans le magasin Steam, on a retenu les tags suivants uniquement :

  • FPS Multijoueur
  • Battle Royale
  • RPG en ligne
  • Coopération en ligne
  • Sandbox
  • Survival Multiplayer
  • Autres (correspondant aux autres tags non classés)

Analyse des résultats

Voici la répartition des joueurs sur la plateforme Steam sur les jeux en lignes :

Observations

  • Les jeux FPS Multijoueur est de loin le genre dominant avec 1,5 million de joueurs actifs, dont 1,1 million sur Counter-Strike 2 à lui seul.
  • Autres genres comptent 1,3 million de joueurs avec des jeux variés comme War Thunder, Euro Truck 2, Civilization VI, etc. Cette catégorie montre la diversité des jeux en ligne.
  • Les Battle Royale regroupe 1 million de joueurs (~16,5 %). Bien qu’en déclin par rapport à 2018-2020, ce genre reste populaire.
  • Les RPG en ligne regroupent environ 1,2 million de joueurs. On y trouve :
    • Des MMORPG (Destiny 2, New World, etc.)
    • Des RPG coopératifs (Baldur’s Gate 3, Stardew Valley)
  • Les Survival Multijoueur comptent 800 000 joueurs sur des titres comme Rust, Satisfactory, Factorio.
  • Les MOBA n’ont seulement 550 000 joueurs, dont la grande majorité provient de Dota 2.

Les RPG en détails

Nous allons approfondir notre analyse dans le type RPG en essayant de séparer et de voir la répartition des RPG en ligne et des MMORPG.

Voici la répartition des joueurs jouant à des MMORPG et des joueurs de RPG classique :

Note :

  • Stardew Valley a le tag RPG et est un jeu qui peut se jouer en multijoueur mais peut-on considérer comme un jeu en ligne ? C’est le cas d’autres jeux principalement singleplayer mais qui peut se jouer en multijoueur.

Limites de résultats obtenus

  • Les tags Steam et les catégories créées ne sont pas assez précises pour trouver les jeux en ligne car on se retrouve souvent à la frontière d’un jeu avec un système multijoueur et un jeu en ligne.

  • D’autres visualisations au sein des catégories nous permettraient de voir qu’uniquement quelques jeux portent la base de jeu de certains types de jeux comme CS 2 pour les FPS et Dota 2 pour les MOBA.

  • Le fait que la catégorie “Autres” possèdent de nombreux jeux en ligne que l’on a pas pu classer montre que le domaine des jeux en ligne est très variée et non cantonnée aux genres que l’on pense habituellement. Globalement, réaliser une classification sur l’ensemble des jeux Steam semble difficile tant certains jeux sont assez particulier pour les catégoriser.

  • Enfin, il faut être conscient que ces données ne concernent que les utilisateurs Steam et non la globalité des joueurs. Par exemple, pour les MMORPG, ceux-ci peuvent être lancés hors Steam. De plus avec l’avènement de l’Epic Game Store, une partie des jeux sont passés sur l’autre plateforme comme Rocket League.

Les jeux les plus populaires

Dans cette partie, nous allons observer les jeux avec le plus de joueurs jouant en même temps. Voici les données pour le dataset que l’on a qui indique le nombre de joueurs en Octobre 2024 :

Pour les données plus récentes, nous avons récolté le nombre de joueurs actif sur le site SteamDB. Voici le même graphique pour Juin 2025 :

Observations :

  • Il existe 3 jeux principaux qui regroupe la majorité des utilisateurs Steam : Counter-Strike 2, PUBG et Dota 2 avec plus de 500k joueurs.
  • On peut remarquer une augmentation significative de la base de joueurs de ces 3 jeux entre octobre 2024 et juin 2025, notamment Counter-Strike 2 qui compte 400k joueurs supplémentaire d’après nos données mais il est de 200k en réalité (SteamDB - Page CS2)
  • Certains jeux comme Black Myth: Wukong ou Liar’s Bar ont été sorti en octobre 2024, ce qui peut expliquer leur présence dans les jeux les plus populaires de Steam et leur absence dans le second graphique. La même remarque est à réaliser pour les nouveaux jeux sortis en juin 2025 comme Stellar Blade, Dune: Awakening ou ELDEN RING NIGHTREIGN qui viennent juste de sortir
  • La présence de Free-to-play peut aussi expliquer la présence de Bongo Cat et de Delta Force dans le graphique de juin 2025. On note 5 jeux FTP dans le classement de 2025.
  • En juin 2025, bien qu’ils ne fassent pas parti des 10 jeux les plus populaires, NARAKA: BLADEPOINT (12ème) et Stardew Valley (19ème) possèdent une base de joueurs assez fidèle. Rust, quant à lui, reste dans le classement à la 10ème place.
  • Pour Stardew Valley, on peut supposer que sa promotion (-50%) en octobre lui a permis de rentrer dans le classement des jeux les plus populaires.
  • Pour Factorio, la raison de sa présence en octobre est dû à la sortie de son contenu additionnel Factorio: Space Age sortie en octobre 2024
  • Pour Liar’s Bar, le jeu a été assez populaire en raison de nombreux streamers/youtubers qui ont réalisé du contenu sur le jeu.

Conclusion

On peut observer plusieurs caractéristiques communes des jeux les plus populaires sur Steam : - Les jeux sont Free-to-play - Les sorties récentes de jeux ou de contenus additionnels - Les soldes du jeu - Le jeu devienne le contenu tendance des créateurs de contenu (streamers/youtubers)

Le classement des jeux les populaires est assez versatile mais le top 3 reste identique avec leurs grosses bases de joueurs.


Analyse des notes des jeux AAA et indies (Paul Lassasseigne)

Introduction

L’industrie du jeu vidéo traverse une période compliquée depuis plusieurs années. Les plus grosses entreprises du milieu enchaînent des polémiques entre licencements intensifs, management toxique et jeux très moyens aux yeux de la critique dont les prix ne cessent d’augmenter.

Qu’est ce qu’un jeu AAA ?

C’est un terme utilisé pour classifier les jeux vidéo dotés de budgets de développement et de promotion élevés. Ce sont donc des jeux censés présenter de grandes qualités.

Cependant, les productions AAA font face à plusieurs critiques récurrentes telles que le manque d’innovation, une uniformisation des contenus, ou encore des pratiques commerciales controversées (microtransactions, loot boxes, DLC abusifs).

À l’opposé, les jeux indépendants sont souvent développés par des équipes réduites ou par des développeurs individuels disposant de moyens financiers et techniques limités. Ce contexte leur permet généralement une plus grande liberté créative, donnant naissance à des jeux originaux, audacieux et parfois innovants.

Problématique

Face à ce contexte qui oppose budget et innovation, une question se soulève quant à la qualité des jeux auprès du grand public :

Les jeux indépendants obtiennent-ils de meilleures évaluations que les AAA ?

Chargement et préparation des données

Afin de réaliser l’analyse, on va utiliser les fichiers raw_reviews.csv et tags.csv qui seront suffisants. Les deux fichiers sont reliés par app_id, tags.csv va nous permettre de séparer les jeux par le groupe des jeux indépendants et celui des jeux AAA, et raw_reviews.csv va nous permettre d’obtenir les notes attribuées pour chaque jeu.

Préparation des jeux

Steam possède un tag spécialement pour les jeux indépendants, qui se nomme “Indie”. Ce n’est pas le cas pour les jeux AAA. Cependant, on peut facilement les obtenir en récupérant l’ensemble des jeux, puis en enlevant les jeux indépendants :

Par la suite, on peut tout mettre dans un nouveau dataset nommé types_games qui recense l’ensemble des jeux avec leur catégorie propre.

Préparation des évaluations

Pour les évaluations, on va créer un nouveau dataset avec seulement les informations dont nous avons besoin, c’est à dire app_id et review_score_description. On va ensuite filtrer review_score_description afin d’obtenir seulement les jeux qui ont une évaluation. La colonne peut avoir d’autres valeurs, comme “None”, “1 user reviews” etc… car Steam attribue une évaluation à un jeu seulement à partir d’un certain nombre d’évaluations de la part de la communauté.

Visualisation

Enfin, pour la visualisation de nos données, on s’est orienté sur un diagramme à barres. L’objectif est de comparer directement les types de jeu selon le niveau d’évaluation.

Le problème est que ce n’est pas égal de faire la comparaison actuellement. Comme on peut le voir plus au dessus grâce à la fonction nrow, aaa_games possède 54 252 jeux, tandis que indie_games en possède 63 253. On va donc faire une moyenne globale pour être au même niveau.

La fonction geom_bar nous permet de définir l’option “position = dodge” afin d’avoir les barres côte à côte pour une meilleure lisibilité.

Observations

L’analyse du graphique montre que, proportionnellement, les jeux AAA obtiennent légèrement plus d’évaluations “Very Positive” que les jeux indépendants. Toutefois, les différences restent relativement faibles et la majorité des jeux indépendants se situent également dans des évaluations globalement positives. Les jeux indépendants affichent une proportion un peu plus élevée d’évaluations “Mixed”, ce qui pourrait refléter une plus grande diversité de qualité au sein de cette catégorie. Cela amène à nuancer l’hypothèse initiale : si les jeux indépendants reçoivent beaucoup de bonnes évaluations, les jeux AAA conservent tout de même une légère avance en termes de perception positive moyenne sur Steam.

Cette hypothèse vient du fait que aujourd’hui, les joueurs sont focalisés sur un léger pourcentage de jeux par rapport à l’entièreté du monde du jeu vidéo. Tous les jours de nouveaux jeux sortent, tous les jours il peut y en avoir d’excellents, mais ils ne feront pas le même bruit que les jeux colossaux développés par les grandes entreprises, comme Microsoft, Ubisoft, Activision Blizzard, Rockstar etc…

Focus sur différents studios de jeux

Dans cette section, nous nous intéressons à trois studios aux profils très différents afin de comparer les jeux qu’ils produisent, notamment en termes de notes et réception critique :

  • Ubisoft : un studio mythique et reconnu qui produit des jeux AAA
  • Supergiant Games : un studio indépendant qui produit des jeux indépendants
  • FromSoftware Inc. : un studio produisant des jeux AAA mais dans un registre différent qu’Ubisoft

L’objectif de cette partie est de regarder les notes des différents jeux des studios avec leurs approches différentes en terme de production de jeux vidéos et d’explorer davantage la question de la notation et de la potentiel influence du tag indie.

Nous allons prendre les 5 jeux de chaque studio ayant obtenu le plus de notes sur Steam.

Notes obtenus

Observations

  • On note que les notes les plus élevées ont été obtenus par les jeux de Supergiant Games, le studio de jeux indépendant qui ne possède pas le budget des deux autres studios.
  • Cependant, cela reste à nuancer : le nombre total de note est nettement moins élevé pour les jeux de Supergiant Games comparé aux jeux des deux studios.
  • On ne peut pas conclure facilement que les jeux d’un studio indie reconnu obtiennent de meilleures notes que les studios AAA car les jeux de FromSoftware Inc. obtiennent des bonnes notes (environ 90% d’approbation sur les jeux les plus notés du studio).

Les genres des jeux Indies sont-elles plus innovantes ?

Nous allons nous intéresser aux genres des jeux indépendant pour voir s’il existe des combinaisons de genres différentes comparé aux jeux AAA.

Tout d’abord, on extrait les genres des jeux AAA. Nous obtenons cette répartition :

Observations :

  • Le genre le plus fréquent chez les jeux AAA sont les genres Action, Aventure, Action/Aventure et Strategy

On extrait maintenant les genres des jeux indépendants :

Obesrvations :

  • Le genre Casual est majoritaire dans les jeux indies, suivi de près par le genre Action
  • Il y a plus de multi-genres dans les jeux indies que sur les AAA
  • La plupart des genres des jeux indies contiennent le genre Casual combiné avec un autre genre ou tout seul

Conclusion

Les jeux indies ne possèdent pas la même tendance de genres que les jeux AAA. Ces jeux possèdent généralement le genre Casual et sont souvent en multi-genre. Nous ne pouvons pas conclure sur une certaine innovation des genres des jeux indies car mise à part le genre Casual nettement présent, le genre Action et Adventure sont majoritaires dans les deux catégories de jeux.


Tendance des jeux sortis récemments (Jules PERRIN)

Contexte général

Steam est une plateforme qui propose l’un des plus gros catalogue de jeux vidéo du marché. Chaque jeu proposé a plusieurs caractéristiques (nom, prix, éditeur , etc). Parmi ces caractéristiques, l’une d’entre elle nous intéresse particulièrement dans ce rapport. En effet les tags permettent aux joueurs de se faire une idée rapide des jeux proposés ou encore de rechercher de nouveaux jeux selon leur préférences.

Le jeu de données que nous allons utiliser ne comporte pas de données permettant de dresser une temporalité. Ce rapport portera donc sur les données du catalogue Steam en octobre 2024.

Les catégories ne doivent pas être confondues avec les tags. Ici les catégories représentent comment l’on joue au jeu (multiplayer, online pvp, remote play on phone etc). Alors que les tags représentent à quoi l’on joue (survival, tactical, FPS, old school, etc).

Problématique

Ce rapport traitera une question pour le moment:

  • Quelle est la tendance des jeux sortis récemment ?

Cela nous permettra d’avoir une idée globale de la dispersion des joueurs dans les catégories majeurs sur steam pour les nouveaux jeux. Pourrait être utile à un studio pour orienter son futur jeux vidéo par example.

Analyse

Import des données

Premièrement il faut importer les données nécessaires à cette analyse. Ainsi que charger les librairies requises pour travailler et visualiser les données Les données des fichiers tags, steamspy et games sont nécéssaires

Précision et définition

Ici on cherche à représenter la tendance actuelle. On utilisera donc la population steam présente le jour de la construction du dataset (bien que pas objectivement représentatif cf. interprétation). On cherche également à se concentrer sur les jeux récents. On utilisera donc tous les jeux sortis en 2024

Voila donc un aperçu des tags les plus populaires selon le contexte établi

Visualisation

Interprétation

On peut observer des tags assez génériques néanmoins on peut s’interroger sur la présence d’early access. Est ce que cette position dans les tags résulte de la curiosité des joueurs pour les jeux “non sortis” en général. Ou bien est-ce qu’un triple A était très attendu et est sorti en early acces en 2024.

On peut également observer que les jeux multi et single player se valent mais cette interprétation est à nuancer car les jeux peuvent avoir les 2 tags de par la présence d’une campagne ou d’un mode histoire.

Les jeux en Coop sont significativement au delà des jeux coop online. Cela pourrait se traduire par l’envie des joueurs de jouer uniquement avec leurs amis ou au moins de ne pas jouer avec des gens aléatoire qui pourraientt avoir un écart de niveau important ou juste vouloir “troller”. au demeurant, les jeux coop n’ont pas forcement de mode en ligne

Limites et attentions

Il faut absolument garder en tête que le dataset ne se base pas sur tout l’historique de steam mais bien sur une journée ce qui peut donc ne pas être représentatif à la perfection.

Les résultat présents sont limités par le fait que beaucoup de jeux peuvent avoir plusieurs tags et donc compter plusieurs fois et biaiser les résultat. Ici impossible de faire la distcntion car il n’y a pas de hiérarchisation des tags. Néamoins une possibilité pourrait être de donner un poids aà certains tags trop générique pour observer des résultat plus axé sur le theme du jeux en lui même (military plutot que multiplayer)

Nous sommes également limité par l’explicité des tags, par exemple, Coop online est-il réservé au jeux qui proposent un matchmaking ou aux jeux permettant d’invité ses amis ou les deux. Ces petites imprécision affecte également la pertinence de l’analyse.